热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

总和|本文_查询所有HIVE表分区数据量

篇首语:本文由编程笔记#小编为大家整理,主要介绍了查询所有HIVE表分区数据量相关的知识,希望对你有一定的参考价值。文章目录

篇首语:本文由编程笔记#小编为大家整理,主要介绍了查询所有HIVE表分区数据量相关的知识,希望对你有一定的参考价值。



文章目录


  • 概述
    • 创建分区表
    • 查看单个HIVE表分区的行数
    • 查看单个HIVE表分区的行数和数据占用
    • 批量查询HIVE表分区的行数和数据占用

  • 补充


概述
  • 查询HIVE表分区的数据占用和行数,用于数据治理
  • 通常,每天一个分区;
    通常,今天查看昨天分区数据量
    本文日期分区字段为ymd

创建分区表

-- 创建多级分区表
DROP TABLE IF EXISTS t3;
CREATE TABLE t3 (f1 STRING,f2 INT)
PARTITIONED BY (ymd STRING COMMENT '年月日',h INT COMMENT '时');
-- 插入数据
INSERT INTO TABLE t3 PARTITION(ymd='2022-08-08',h=8)
VALUES ('ef',9),('hh',13);

查看单个HIVE表分区的行数

SELECT COUNT(1) FROMWHERE 分区="分区值";

查看单个HIVE表分区的行数和数据占用

DESC FORMATTED 表 PARTITION(分区="分区值");


分区属性说明备注所在mysql
PART_ID分区唯一标识PARTITIONS
PART_NAME分区名称例如ymd=2022-08-08PARTITIONS
CREATE_TIME分区创建时间transient_lastDdlTimePARTITIONS
numFiles文件数PARTITION_PARAMS
numRows行数LOAD DATE写分区时,该值为0PARTITION_PARAMS
rawDataSize原始数据大小LOAD DATE写分区时,该值为0PARTITION_PARAMS
totalSize数据在HDFS的大小(不含副本)PARTITION_PARAMS
numFilesErasureCoded通常是0PARTITION_PARAMS
transient_lastDdlTime最近1次DDL时间≥分区创建时间PARTITION_PARAMS
COLUMN_STATS_ACCURATELOAD DATE写分区,该值为NULL
INSERT写分区,该值为"BASIC_STATS":"true"
PARTITION_PARAMS

批量查询HIVE表分区的行数和数据占用

HIVE元数据存储在MySQL,模型如下:



E-R图


批量查询HIVE表分区的行数和数据占用的SQL

SELECT
table_name
,PART_NAME AS partition_name
,create_time
,num_files
,num_rows
,raw_data_size
,total_size
-- ,num_files_erasure_coded
,transient_last_ddl_time
,column_stats_accurate
FROM ( -- 昨天分区
SELECT PART_NAME,PART_ID,TBL_ID,FROM_UNIXTIME(CREATE_TIME,"%Y-%m-%d %h:%i:%s") AS create_time FROM PARTITIONS
WHERE PART_NAME=CONCAT("ymd=",DATE_FORMAT(DATE_SUB(CURRENT_DATE(),INTERVAL 1 DAY),"%Y-%m-%d"))
)t1
INNER JOIN ( -- 库名.表名(筛选外部表)
SELECT CONCAT(DBS.NAME,TBLS.TBL_NAME) AS table_name,TBL_ID
FROM DBS INNER JOIN TBLS ON DBS.DB_ID=TBLS.DB_ID
WHERE TBLS.TBL_TYPE="EXTERNAL_TABLE"
-- OR TBLS.TBL_TYPE="MANAGED_TABLE"
)t0 ON t1.TBL_ID=t0.TBL_ID
INNER JOIN (
SELECT
PART_ID
,MAX(IF(PARAM_KEY="numFiles",PARAM_VALUE+0,NULL)) AS num_files
,MAX(IF(PARAM_KEY="numRows",PARAM_VALUE+0,NULL)) AS num_rows
,MAX(IF(PARAM_KEY="rawDataSize",PARAM_VALUE+0,NULL)) AS raw_data_size
,MAX(IF(PARAM_KEY="totalSize",PARAM_VALUE+0,NULL)) AS total_size
,MAX(IF(PARAM_KEY="numFilesErasureCoded",PARAM_VALUE+0,NULL)) AS num_files_erasure_coded
,MAX(IF(PARAM_KEY="transient_lastDdlTime",FROM_UNIXTIME(PARAM_VALUE,"%Y-%m-%d %h:%i:%s"),NULL)) AS transient_last_ddl_time
,MAX(IF(PARAM_KEY="COLUMN_STATS_ACCURATE",PARAM_VALUE,NULL)) AS column_stats_accurate
FROM PARTITION_PARAMS
GROUP BY PART_ID
-- HAVING column_stats_accurate IS NOT NULL
)t2 ON t1.PART_ID=t2.PART_ID;

table_namepartition_namecreate_timenum_filesnum_rowsraw_data_sizetotal_sizetransient_last_ddl_timecolumn_stats_accurate
default.t3ymd=2022-08-08/h=82022/8/29 10:44129112022/8/29 10:44“BASIC_STATS”:“true”

补充
  • HIVE的LODA DATA和Sqoop的hive-import写进分区,是冇计算行数的
  • 建议:HIVELODA DATA或Sqoophive-import到中间表,再从中间表SELECT INSERT到ODS层
    两个好处:1、计算行数;2、合并小文件

查询所有HIVE表行数

select distinct `PARAM_KEY` from `TABLE_PARAMS`;

查询所有HIVE表行数总和





推荐阅读
  • Hadoop MapReduce 实战案例:手机流量使用统计分析
    本文通过一个具体的Hadoop MapReduce案例,详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况,包括上行和下行流量的计算以及总流量的汇总。 ... [详细]
  • 本文探讨了如何使用Scrapy框架构建高效的数据采集系统,以及如何通过异步处理技术提升数据存储的效率。同时,文章还介绍了针对不同网站采用的不同采集策略。 ... [详细]
  • 本文介绍了如何使用Java编程语言实现凯撒密码的加密与解密功能。凯撒密码是一种替换式密码,通过将字母表中的每个字母向前或向后移动固定数量的位置来实现加密。 ... [详细]
  • HDU 2537 键盘输入处理
    题目描述了一个名叫Pirates的男孩想要开发一款键盘输入软件,遇到了大小写字母判断的问题。本文提供了该问题的解决方案及实现方法。 ... [详细]
  • 使用Java计算两个日期之间的月份数
    本文详细介绍了利用Java编程语言计算两个指定日期之间月份数的方法。文章通过实例代码讲解了如何使用Joda-Time库来简化日期处理过程,旨在为开发者提供一个高效且易于理解的解决方案。 ... [详细]
  • iOS如何实现手势
    这篇文章主要为大家展示了“iOS如何实现手势”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“iOS ... [详细]
  • Excel技巧:单元格中显示公式而非结果的解决方法
    本文探讨了在Excel中如何通过简单的方法解决单元格显示公式而非计算结果的问题,包括使用快捷键和调整单元格格式两种方法。 ... [详细]
  • 本文探讨了Android系统中联系人数据库的设计,特别是AbstractContactsProvider类的作用与实现。文章提供了对源代码的详细分析,并解释了该类如何支持跨数据库操作及事务处理。源代码可从官方Android网站下载。 ... [详细]
  • 本文探讨了在Python中多线程与多进程的性能差异,特别是在处理CPU密集型任务和I/O密集型任务时的表现。由于全局解释器锁(GIL)的存在,多线程在利用多核CPU方面表现不佳,而多进程则能有效利用多核资源。 ... [详细]
  • Lua字符串1.字符串常见形式字符串或串(String)是由数字、字母、下划线组成的一串字符。Lua语言中字符串可以使用以下三种方式来表示:•单引号间的一串字符。 ... [详细]
  • java datarow_DataSet  DataTable DataRow 深入浅出
    本篇文章适合有一定的基础的人去查看,最好学习过一定net编程基础在来查看此文章。1.概念DataSet是ADO.NET的中心概念。可以把DataSet当成内存中的数据 ... [详细]
  • 本文介绍了一种在 Android 开发中动态修改 strings.xml 文件中字符串值的有效方法。通过使用占位符,开发者可以在运行时根据需要填充具体的值,从而提高应用的灵活性和可维护性。 ... [详细]
  • 本文详细介绍了如何使用Linux下的mysqlshow命令来查询MySQL数据库的相关信息,包括数据库、表以及字段的详情。通过本文的学习,读者可以掌握mysqlshow命令的基本语法及其常用选项。 ... [详细]
  • 本文详细介绍了如何在PHP中使用Memcached进行数据缓存,包括服务器连接、数据操作、高级功能等。 ... [详细]
  • 本文详细介绍了如何通过JDBC连接Hive进行数据操作,包括Hive服务的启动、相关依赖的配置以及具体代码示例,适合对Hive和JDBC有一定了解的开发者阅读。 ... [详细]
author-avatar
边怀珠大海
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有